Análisis RNA-seq en cáncer de pulmón (TCGA-LUAD)

Este ejercicio integra análisis bioinformático real con interpretación biológica, usando datos públicos de adenocarcinoma pulmonar (LUAD) del proyecto TCGA.

Objetivo del ejercicio

Identificar biomarcadores transcriptómicos Tumor vs Normal

Aplicar un pipeline estándar de control de calidad + DESeq2

Visualizar resultados mediante PCA, Volcano y Heatmap

Interpretar los genes en el contexto de oncogénesis pulmonar

Conectar biomarcadores con KEGG y Hallmarks of Cancer

Datos

Fuente: TCGA (The Cancer Genome Atlas)

Proyecto: TCGA-LUAD

Tipo de datos: RNA-seq (STAR – Counts)

Muestras:

Primary Tumor

Solid Tissue Normal

Control de calidad (conceptual)

Filtrado de genes con baja expresión (ruido técnico)

Normalización por tamaño de biblioteca

Transformación de varianza (VST)

Evitar mezclar identificadores (ENSG vs SYMBOL)

En TCGA, los objetos pueden traer símbolos génicos automáticamente. Siempre verificar rownames()

Preparando datos

## $title
## [1] "PCA RNA-seq – TCGA LUAD"
## 
## attr(,"class")
## [1] "labels"
## [1] "ENSG00000168484.12" "ENSG00000129824.16" "ENSG00000096088.16"
## [4] "ENSG00000171564.12" "ENSG00000198183.12" "ENSG00000215182.8"
## [1] "ENSG00000000003.15" "ENSG00000000005.6"  "ENSG00000000419.13"
## [4] "ENSG00000000457.14" "ENSG00000000460.17" "ENSG00000000938.13"
## [1] TRUE
##  [1] NA NA NA NA NA NA NA NA NA NA
## DataFrame with 6 rows and 10 columns
##                      source     type     score     phase            gene_id
##                    <factor> <factor> <numeric> <integer>        <character>
## ENSG00000000003.15   HAVANA     gene        NA        NA ENSG00000000003.15
## ENSG00000000005.6    HAVANA     gene        NA        NA  ENSG00000000005.6
## ENSG00000000419.13   HAVANA     gene        NA        NA ENSG00000000419.13
## ENSG00000000457.14   HAVANA     gene        NA        NA ENSG00000000457.14
## ENSG00000000460.17   HAVANA     gene        NA        NA ENSG00000000460.17
## ENSG00000000938.13   HAVANA     gene        NA        NA ENSG00000000938.13
##                         gene_type   gene_name       level     hgnc_id
##                       <character> <character> <character> <character>
## ENSG00000000003.15 protein_coding      TSPAN6           2  HGNC:11858
## ENSG00000000005.6  protein_coding        TNMD           2  HGNC:17757
## ENSG00000000419.13 protein_coding        DPM1           2   HGNC:3005
## ENSG00000000457.14 protein_coding       SCYL3           2  HGNC:19285
## ENSG00000000460.17 protein_coding    C1orf112           2  HGNC:25565
## ENSG00000000938.13 protein_coding         FGR           2   HGNC:3697
##                             havana_gene
##                             <character>
## ENSG00000000003.15 OTTHUMG00000022002.2
## ENSG00000000005.6  OTTHUMG00000022001.2
## ENSG00000000419.13 OTTHUMG00000032742.2
## ENSG00000000457.14 OTTHUMG00000035941.6
## ENSG00000000460.17 OTTHUMG00000035821.9
## ENSG00000000938.13 OTTHUMG00000003516.3
##  [1] "SFTPC"   "RPS4Y1"  "PGC"     "FGB"     "BPIFA1"  "MUC5AC"  "XIST"   
##  [8] "SFTPA1"  "FGG"     "MUC5B"   "SFTPA2"  "FGA"     "AKR1C2"  "CLDN18" 
## [15] "DDX3Y"   "SPINK1"  "CPS1"    "CALCA"   "SCGB1A1" "GPX2"
## [1] 20

## [1]  20 599

KEGG

## [1] 11801
## [1] 3077
##           ENSEMBL ENTREZID
## 1 ENSG00000000003     7105
## 2 ENSG00000000005    64102
## 3 ENSG00000000460    55732
## 4 ENSG00000000938     2268
## 5 ENSG00000001084     2729
## 6 ENSG00000001626     1080

## [1] "ENSG00000000003.15" "ENSG00000000005.6"  "ENSG00000000460.17"
## [4] "ENSG00000001084.13" "ENSG00000002079.14" "ENSG00000002587.10"
## [1] 6779
## [1] 11801

##                               category  n
## 1                           Metabolism 15
## 2                   Organismal Systems 14
## 3                       Human Diseases 11
## 4 Environmental Information Processing  9
## 5                                 <NA>  7
## 6                   Cellular Processes  2

El análisis de enriquecimiento KEGG reveló una sobrerrepresentación significativa de rutas asociadas a señalización celular, interacción ligando-receptor, metabolismo y procesos inmunes. Destacan particularmente rutas relacionadas con señalización PI3K-Akt, interacción citoquina-receptor y metabolismo de lípidos, procesos ampliamente implicados en la progresión tumoral del adenocarcinoma pulmonar.